亚马逊发表BASE TTS,首个语音大模型,语音智能涌现,10亿参数10万小时语料
“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”
摘要
简介
- 使用了一个基于Transformer的TTS模型(BASE TTS),并在主观评估中表现优于公开可用的LTTS基线模型。
- 将BASE TTS扩展到更大的数据集和模型大小,以提高其处理复杂文本的能力,并提供了一个“新兴能力”测试集作为主观评估基准。
- 引入了一种新颖的离散语音表示方法,可以捕捉语音信号的音素和韵律信息,并证明其优于基线量化方法。这种表示方法可以通过简单、快速、可流式解码器解码为高质量的波形。
BASE TTS
实验设置
数据集
本文介绍了一种使用大规模语音数据集训练语音合成模型的方法。作者使用了包含100K小时无标签语音数据的数据集,并避免了信号处理或降噪,以测试模型在嘈杂背景数据中生成清晰语音的能力。作者还使用了ASR模型和语音活动检测(VAD)进行语音分割和自动语音识别,并将语音片段分为30秒或更短的片段。作者还将长句子分割为20秒以下的句子,并在训练期间重新组合它们,以使模型对非常短的输入具有鲁棒性,并从更长的上下文中学习。
作者发现自动语音识别(ASR)生成的标点符号较少,例如过多使用逗号而不是冒号和分号,并且很少生成括号。因此,作者采用了部分文本恢复的方法,通过在互联网上搜索源文本并将其与每个录音相关联,然后将ASR转录与源文本逐句匹配,如果它们之间的差异足够小(长度不超过3倍或缩短,且在一定的编辑距离内),则用后者替换前者。这样可以将约一半的文本恢复到“原始”状态,从而使转录中引号和括号的数量大大增加。这样可以避免模型在处理括号等“罕见”标点符号时出现频繁的声学伪影。
训练
模型分为三个步骤:训练两个语音分词器变体,训练SpeechGPT模型,训练语音编码器。SpeechGPT模型使用自回归Transformer结构,通过随机参考语音片段、文本和相应的目标语音片段进行训练。模型的参数和语音数据量可以根据需要进行调整。最终,训练语音编码器以生成语音。
评估
本文介绍了三种测试方法来评估TTS模型的质量:MUSHRA测试、语言专家评估和自动客观评估。MUSHRA测试通过多个听众对50-100个文本片段的评分来评估模型的质量。语言专家评估通过手动创建的“新兴能力测试集”来评估模型对于文本的理解能力。自动客观评估通过ASR模型计算词错误率和说话人相似度来测试模型的鲁棒性。为了可视化,使用t-test来确定两个系统之间的显著性差异。
结果
VQ-VAE speechcode vs. WavLM speechcodes
Diffusion-based解码器 vs. speechcode解码器
BASE TTS通过提出端到端的语音编码解码器简化了基线扩散解码器,提高了推理速度。通过对比基线进行评估,发现对于4个美国英语和2个西班牙语的说话者中的4个声音,使用语音编码解码器的BASE TTS变体在平均MUSHRA评分方面优于基线。对于剩下的说话者,差异没有统计学意义。研究结果表明,语音编码解码器是首选方法,它不会降低质量,并且对于大多数声音来说,它提供了质量改进,同时提供更快的推理速度。研究结果还表明,将两个强大的生成模型用于语音建模是多余的,可以通过放弃扩散解码器来简化。
消融分析
本文验证了在LTTS中进行数据和参数缩放会带来质的不同结果的假设。通过MUSHRA和语言专家判断“Emergent abilities”的方法,对两个美式英语语音进行评估。结果表明,从BASE-small到BASE-medium,语音自然度显著提高,但从BASE-medium到BASE-large的提高不太明显。同时,从BASE-small到BASE-medium,模型在所有类别中都有显著提高,但从BASE-medium到BASE-large,除了复合名词外,其他类别的提高有所减缓。情感和语音语调仍然是所有模型变体中最具挑战性的任务。作者认为,将基于GPT的TTS模型从1000+小时和100万个参数缩放到10000+小时和500万个参数是出现“Emergent abilities”的关键点。作者希望进一步扩展模型规模和注入文本知识可以帮助弥补性能差距。
与基线比较
BASE TTS在MUSHRA测试中获得了比基准系统更高的自然度分数。在10个说话者和307个样本上进行的客观评估中,BASE TTS产生了最自然的语音,与输入文本的不匹配程度最小,并且与参考说话者的语音最相似。相对而言,Tortoise在自然度和WER方面与BASE TTS相差不大。Bark和YourTTS在自然度和WER方面表现较差,尽管Bark在说话者相似度方面与BASE TTS相对较接近。
speechcode解码器带来的合成效率提高
speechcode解码器能够实现流式生成语音,结合自回归SpeechGPT模型,其首字节延迟仅为100ms,比扩散式解码器更加高效。在基准测试中,SpeechGPT模型使用语音编码解码器的合成速度比扩散式解码器快3倍。
总结